pp006 科研论文阅读笔记

Edited by Ben. Get the knowledge flowing and circulating! :)

 

记录指导

要记录读过之后的感觉。
  1. 有些概念就不要记录了~ 因为你不会第二次再看,而且文章中只是浅浅提了一下!

  2. 记录20%,不要记录太多,记录关键的20%

  3. 抓住关键信息

  4. 重要的是要多思考,多检索,有效学习,汲取不会的知识,而不是在会的知识上一直徘徊。

  5. 发现一个有趣的现象

    • 每篇文章都有自己的主要参考文献和次要参考文献。

      • 主要参考文献是重要技能来源;

      • 次要参考文献是知识普及来源!

    结论:要找到每篇文章的主要参考文献!

  6. 下次看文献,要先略读,判断是否值得继续深入,然后再根据判断结果选择要不要深读!

  7. 看文献后,必须总结在自己报告中的section

    1. 关于数据部分的解释(用的什么数据,怎么获得的,在哪里可以下载到文章中用到的数据)

    2. 文章的主要参考文献,以及主要参考文献的贡献(比如,可能一篇文章是2篇文章的技术融合,etc.)

  8. 今天读论文期间的感受:

    是不是要深入一个方法来学学呢?

    那些好像有些产出的,都是因为自己在某个技术上(或者说在自己的能力圈上)有所进益的!

    • 比如,我要不要学学什么图神经网络呢?

    • 哦?那可能前提还要找到一个具体的研究点 / 可复现的文章才行吧!

 

目录


Today‘s paper1

keywords: Traffic congestion causes, novel category discovery, transfer clustering, spatio-temporal data mining

总结 & 评价

这篇文章主要做的是,研究两个内容:

  1. congestion特征提取

  2. congestion原因探索

是一篇比较有意思的文章,可读性很强,书写的比较流畅丝滑。读的时候,可以让自己更好地专注内容,而不是单词或者句式上!

 

工作方法

传统的方法:human efforts(人工劳作),这样的话既time consuming又cost-intensive

Traditionally, it relies on considerable experience and expertise knowledge to manually label the congestion causes. It is too timeconsuming and costly to find all the causes of traffic congestion events, which cannot be used in the real-time map applications. 就是说:需要大量的经验和专家知识来人工标注,这个听上去就感觉不太ok,太耗时且代价太高了,无法应用在实时的地图app中。

we aim to discover the known and unknown causes of traffic congestion in a systematic way.

挑战:

  1. 交通堵塞由多种因素共同影响,这些因素之间有复杂的时空关系;(比如文章中的例子,3个时段的交通原因是因为不同的时空信息:上学、医院以及交通事故)

  2. 由于有限的人类标签,交通堵塞的数据中,有标签的数据很少;(有标签的数据虽然有限,但是能够带来的价值是很大的,它们可以让我们了解具体是哪个特征会与交通堵塞有关系。比如,上学这个被labeled的标签数据,它能告诉我们引起交通堵塞的原因有POI information,那如何有效利用这种有限的数据呢?)

  3. 更多未知的堵塞原因还没有被探索;(这部分主要是说,有很多因素可能共同作用于那段时间的交通堵塞,而且不同因素的作用程度可能也不同。所以,怎样去探索其他更多未知的原因呢?)

本文target: how to automatically and accurately identify the causes of traffic congestion is our main focus.

进一步解释目标:在大规模的无标签数据中(只有一小部分有标签的数据)同时探索已知和未知的交通堵塞原因。

本文work:设计了一个交通堵塞原因探索系统(we design and implement a system that has ability to explore known and novel congestion cause based on limited supervised data.),由两个模块组成:

  1. 堵塞特征提取:提取影响阻塞的重要特征 | 提取与交通堵塞相关的重要特征;

  2. 堵塞原因探索:利用了一种基于深度半监督学习方法,在有限的有标签的堵塞数据上探索交通堵塞的原因;

Specifically:首先design an encoder-decoder neural network,利用一部分有标签的数据作为先验知识来预训练模型;然后利用deep embedded clustering method,在两种损失函数的监督下来产生类簇。这两种损失函数分别是:data reconstruction loss and Kullback-Leibler divergence loss. Benefit from the transferred knowledge, our clustering method can achieve better performance in accuracy.(咦,怎么还有transferred knowledge?)

具体执行:首先从交通数据中人工标注一部分交通堵塞产生的原因,作为标签数据。

主要贡献

  1. 第一份在有限标注的数据上自动探索未知的交通堵塞原因的工作;

  2. 定量研究了各种原因导致的交通堵塞事件的代表性特征;这些特征提取自时间 | 空间信息;

    • 例如,相关的POI信息

    • road type

    • the start and end time

    • how the congestion events evolve

  3. 在有限标签数据上提出了一种基于深度半监督学习的方法。通过这个方法可以把有限标签上学到的知识(预训练的参数)进行迁移,并且基于交通拥堵事件学到的特征表示执行了deep embedded clustering算法;

  4. 基于真实世界的数据集进行了大量实验,结果表明所提方法与SOTA方法相比具有更高的accuracy, 能够同时发现未知的堵塞原因;

  5. 文章所提系统还被部署在了production environment, 展示了系统在发现轨迹堵塞时的能力!

关于数据

we collect large-scale traffic data within one week in a city of China.

traffic data包括哪些呢?

 

(交通堵塞的因果推断)Causal inference of traffic congestion:

→ 本文:不仅发现已知的,还可以探索新的!

(交通状况预测)Traffic condition prediction:

average speed | traffic volume | traffic states

→ 本文:聚焦在基于对交通数据的深入分析来探索交通拥堵的原因

(聚类方法)Clustering methods

和本文工作相关的有两种聚类方法:无监督 & 半监督

无监督聚类方法:目标是从无标签的数据中学习数据的模式;包括

但是,这些方法都没有很好地利用那些有限的labeled的数据作为先验知识

半监督聚类方法:由于先验知识的重要性,半监督聚类开始得到研究者的关注;

→ 本文:通过transferring the knowledge from limited labeled traffic data 来发现已知和未知的交通堵塞方法。

总结来说:就是利用半监督聚类方法的特性,把利用有标签的traffic data中学到的知识,转移到没有标签的数据中,来识别堵塞的原因。

文章的主要参考文章

[12]

 

文章带来的拓展知识

 

 

 

欢迎大家点开「这篇论文我读过」系列。本系列笔记是我在科研学习过程中,非常非常重要组成部分之一!

该系列的笔记主要包括:

  • 论文中好的想法的理解和感受;

  • 论文中的工作引发我的思考;

  • 以及其他可以吸收的有价值 | 有意义的内容。


1 Wang M, Yan H, Sui H, et al. Learning to Discover Causes of Traffic Congestion with Limited Labeled Data[C]. Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2022: 4041-4049.